“对于粤语未来的担忧绝非空穴来风。语言衰微发生的速度很快,可能在一、两个世代之内就式微,而一旦语言迈向衰亡,就很难力挽狂澜。”James Griffiths《请说国语》至此,似乎可以认为,语音合成在粤语上的表现不佳是技术处理低资源语言时的能力所致。采用了深度学习算法的模型,在面对不熟悉的词语时,会生出声音的幻象。 但香港中文大学电子工程系教授 Tan Lee,在听过 ChatGPT 的语音表现后,给出了一点不同的意见。
油麻地戏院上演的一出粤剧Tan Lee 自 1990 年代初开始致力于语音语言相关的研究,领导开发了一系列以粤语为核心的口语技术,并得到了广泛的应用。他在 2002 年与团队合作推出的粤语语音语料库 CU Corpora,是彼时世界同类数据库中最大的,包含两千多人的录音数据。苹果的第一代语音识别在内,许多公司和研究机构希望开发粤语功能时,都曾向他们购买这套资源。在他看来,ChatGPT 的广东话语音表现“水平不是很好,主要是不稳定,声音的质量、发音的准确性整体都不是让人很满意”。但这种表现不佳并非源于技术局限。实际上,如今市面上许多具备广东话能力的语音生成产品,质量都要远高于此。以至于他对网络视频中 ChatGPT 的表现感到难以置信,一度以为是深度仿冒的赝品,“如果是做语音生成模型的,做成这样基本不能见人,等于自杀”。以香港中文大学自身开发的系统为例,最先进的一批在语音效果上已经很难分辨是真人还是合成的声音。与普通话和英语等更强势的语言相比,AI广东话只在一些更个性化和生活化的场景中,情感表现会逊色一些,比如在父母与孩子的对话、心理咨询、工作面试的场景中,广东话会显得比较冰冷。“但严格来讲,在技术上这并没有什么难度,关键在于社会资源的选择。” Tan Lee 表示。相比于 20 年前,语音合成领域已经发生了翻天覆地的变化,CU Corpora 的数据量跟如今的数据库相比“可能还不到万分之一”。语音技术的商业化让数据成为了一种市场资源,只要愿意,数据公司随时可以提供大量的定制数据。而广东话作为口语化语言,文本与语音的平行数据缺少的问题,近年来随着语音识别技术的发展,也已经不再是一个问题。在当下,广东话作为“低资源语言”的说法,Tan Lee 认为已经不再准确。也正是因此,在他看来,市面上机器的广东话表现反映的并非是技术的能力,而是市场与商业的考虑。“假设现在全中国一起学广东话,那肯定可以做起来;又比如,现在香港跟内地越来越融合,假设有一天教育政策变成,香港的中小学不能用广东话,只能说普通话,那就又会是另外一个故事了。”“吃下什么便吐出什么”的深度学习展现出的口音,实际上是广东话在现实空间受到的挤压。黄冠能女儿刚刚上广州的幼稚园中班,而从小只会说广东话的她,在上学一个月之后,就精通了普通话。如今,即便是与家人邻居的日常交流,她也更习惯用普通话,只有跟黄冠能还愿意说广东话,“因为她最想跟我一起玩,就要根据我的喜好来”。在他眼中,ChatGPT 的表现就很像是女儿如今说粤语时的样子,很多词汇想不起来怎么说,就用普通话来代替,或是通过普通话猜测它的发音。这是广东话在广东地区长期不受重视,甚至从官方语境中被完全排除的结果。1981 年广东省人民政府的一份政府文件中写道,“推广普通话是一项政治任务”,尤其对于方言复杂,对内对外交往频繁的广东,“力争三、五年内大中城市一切公共场合都使用普通话;六年内各类学校基本普及普通话。”在广州成长的 Frank 对此也有很深的记忆,童年电视公共频道里播放的电影,外语片都没有中文配音,使用字幕,唯独粤语片一定会有普通话配音才会在电视上播放。在此背景下,粤语日渐式微,使用者数量骤减,校园牵头“封杀粤语”,也引发了对粤语存亡以及与之相关的身份认同的激辩。2010 年,广州的网络与线下爆发大规模“撑粤语”行动。当年的报道中提及,人们将这场论战与法国小说《最后一课》中的场景相提并论,认为大半个世纪的文化激进主义使原本茂盛的语言枝干日益萎缩。对于香港,广东话更是本地文化的关键载体,港片、港乐对外塑造了这里社会生活的面貌。2014 年,教育局官网曾刊登一篇文章,文中称广东话为“不是法定语言的中国方言”,引发了激烈的争论,最终以教育局人员出面道歉收场。2023 年 8 月,香港捍卫粤语组织“港语学”宣布解散,创始人陈乐行在之后的采访中提及广东话在香港面临的现状:政府积极推动“普教中”,即用普通话教授中文科,但因市民关注,令政府“慢咗个步伐”。这些都足见在香港人心目中广东话的重要性,但也显示出这个语言在本地面临的长期压力,没有官方身分的脆弱性以及政府与民间的持续角力。
网上粤语辞典-粤典
4
不被代表的声音
语言的幻象不仅存在于粤语中。Reddit 论坛与 OpenAI 的讨论区,来自世界各地的用户都反映了 ChatGPT 在说非英语语言时存在类似表现:“它的意大利语语音识别非常好,总是能听懂且表达流利,就像一个真人。但奇怪的是,它有英国口音,就像一个英国人在说意大利语。”“本英国人表示,它有美国口音。我很讨厌这一点,所以我选择不用。”“荷兰语也是,很烦人,仿佛它的发音是用英语音素训练出来的。”语言学上,将口音定义为一种发音方式,每个人受到地理环境、社会阶层等因素影响,都或多或少会有发音选择上的差异,这常常体现在音调、重音或词汇选择上的不同。有趣的是,过去被广泛提及的一些口音,大多源于世界各地的人试图掌握英语时从母语中携带而来的习惯,比如印度口音、新加坡口音、爱尔兰口音——这反映了世界语言的多样性。但人工智能展现出的,则是主流语言对区域性语言的曲解和反向入侵。技术放大了这种入侵。Statista 在今年二月的一份数据报告中着重点出,虽然全世界仅 4.6% 的人将英语作为母语,它却压倒性地占据网络文本的 58.8%,这意味着它在网络上具有比现实中更大的影响力。即便是将所有会说英语的人纳入,这 14.6 亿人也只占世界人口的不到 20%,也就是说世界上大约五分之四的人无法理解网络上发生的大部份事情。进一步来讲,他们也很难让精通英语的人工智能为自己工作。一些来自非洲的计算机科学家发现,ChatGPT 经常错解非洲语言,翻译很粗浅,对于祖鲁语(Zulu;班图语的一种,全球约有900万使用者),它的表现“好坏参半、令人捧腹”,对于提格雷尼亚语(Tigrinya;母语国主要为以色列和埃塞俄比亚,全球约有800万使用者)的提问,则只能得到乱码的回答。这一发现引发了他们的担忧:缺乏适用于非洲语言、可以识别非洲名称和地点的人工智能工具,会使非洲人民难以参与到全球经济体系,比如电子商务与物流中,难以获取信息并自动化生产过程,进而被阻挡在经济机会之外。将某种语言作为“黄金标准”的训练方式,还会让人工智能在判别时有所偏差。史丹福大学 2023 年的一项研究发现,人工智能错误地将大量托福考试作文(非英语母语者的写作)标记为 AI 生成,对于英语母语学生的文章时却不会如此;另外一项研究则发现,在面对黑人说话者时,自动语音识别系统的错误率几乎是面对白人时的两倍,而且这些错误并非由语法,而是“语音、语音或韵律特征”,也就是“口音”引起。让人更不安的是,在模拟庭审的实验中,面对非裔美式英语的使用者,大语言模型判处死刑比例要更高于说标准美式英语的人。一些担忧的声音指出,如果不考虑底层技术的缺陷,只因便利就不假思索地讲现有的人工智能技术投入使用,将产生严重的后果。比如一些法庭转录已经开始使用自动语音识别,对于有口音或是不精通英语当事人的语音记录更可能产生偏差,而带来不利的判决。更进一步思考,未来人们会不会为了被 AI 理解而放弃或改变自己的口音?现实中,全球化和社会经济发展的已经带来这样的改变。Frank 目前在北美读研究生,同班的加纳同学跟她分享过当下这个非洲国家的语言使用现状:书面文本基本上都使用英文,即便是私人的文本,比如书信也是如此。口语中则夹杂了大量英文单词,这导致即便是当地人,也逐渐开始忘记一些非洲母语词汇或表述方式。在 Tan Lee 看来,如今人们正陷入对机器的一种痴迷。“因为机器现在做得好,我们就拼命地跟机器去说话”,这是一种本末倒置。“我们为什么说话?我们说话的目的不是为了转成文字,也不是让它生成回答。在现实世界,我们说话的目的是为了交流。”他认为,技术发展方向应当是让人与人之间能沟通地更好,而非与电脑交流的更好。在这个前提下,“我们很容易想到很多有待解决的问题,比如有人听不到,可能因为耳聋,也可能离得太远,可能不懂这个语言,可能大人不会讲小孩的话,小孩不会讲大人话。”如今有很多好玩的语言技术,但它们是否让我们沟通地更为顺畅?它在包容每个人的不同,还是让人们愈发与主流靠近呢?当人们在庆祝 ChatGPT 带来的前沿突破,日常中的一些基础应用却仍并未从中受益。Tan Lee 至今仍能在机场广播中,听到合成语音发出错误的发音,“沟通的第一要点就是准确,但这都没有做到,这是不能接受的”。几年前,因为个人精力有限,黄冠能停止了 Ekho 对安卓系统版本的维护,但停了一段时间,突然又有用户跑来希望他将其恢复。他才得知,如今安卓系统已经没有免费的粤语 TTS 可用了。用当下的眼光看来,黄冠能开发的 Ekho 采用的已经是完全落伍的技术,但仍具有独特之处。作为本土的独立开发者,他在设计时带入了对于这个语言的切身经验。他记录的广东话包含了七个声调,其中第七个是香港语言学会提出的 Jyutping (粤拼)中不存在的一个发音。“‘烟’这个词在‘抽烟’和‘烟火’中,会发出不同的声调,也就是第一声和第七声。”在整理发音字典时,他曾请教过 Jyutping 的研发者,得知随着时代变化,年轻一代的香港人不再分辨第一声与第七声的区别,这个音也因此逐渐消失了。但他仍选择将第七音纳入,这并非出于公认的标准,只是他个人的情感记忆,“土生土长的广州人是可以听出来的,现在使用还是非常普遍”。只听到这个音,老广便能分辨,你是本地人还是外来的。(端媒体)